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基于 改进 的 深度 卷 积 神经 网 络 的 人 体 动作 识别 方法 
陈胜 娣 ， 魏 “ 维 ， 何 冰 倩 ， 陈 思 字 ， 刘 基 缘 


(成 都 信息 工程 大 学 计算 机 学 院 , 成 都 610225) 


摘 E: 针对 现 有 的 动作 识别 算法 的 特征 提取 复杂 、 识 别 率 低 等 问题 ， 提 出 了 基于 批 归 一 化 变换 (batch normalization) 与 
GoogLeNet 网 络 模型 相 结 合 的 网 络 结构 ， 将 图 像 分 类 领域 的 批 归 一 化 思想 应 用 到 动作 识别 领域 中 进行 训练 算法 改进 ， 

实现 了 对 视频 动作 训练 样本 的 网 络 输入 进行 微 批 量 (mini-batch) 归 一 化 处 理 。 该 方法 以 RGB 图 像 作为 空间 网 络 的 输入 ， 

光 流 场 作为 时 间 网 络 输入 ， 然 后 融合 时 空 网 络 得 到 最 终 动作 识别 结果 。 在 UCF101 和 HMDB51 数据 集 上 进行 实验 , 分 
别 取得 了 93.50% 和 68.32% 的 准确 率 。 实 验 结 果 表 明 ， 改 进 的 网 络 架构 在 视频 人 体 动作 识别 问题 上 具有 较 高 的 识别 准 
确 率 。 
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Action recognition base on improved deep convolutional neural network 


Chen Shengdi, Wei Wei, He Binggian, Chen Siyu, Liu Jiyuan 
(College of Computer Science & Technology, Chengdu University of Information Technology, Chengdu 610225, China) 


Abstract: Aiming at the problem of complex feature extraction and low accuracy in human action recognition, this paper 
proposed a network structure combining batch normalization algorithm with GoogLeNet network model. Applying Batch 
Normalization idea in the field of image classification to action recognition field, it improved the algorithm by normalizing the 
network input training sample by mini-batch. For convolutional network, RGB image was the spatial input, and stacked optical 
flows was the temporal input. Then, it fused the spatio-temporal networks to get the final action recognition result. It trained and 
evaluated the architecture on the standard video actions benchmarks of UCF101 and HMDBSI , which achieved the accuracy of 
93.50% and 68.32%. The results show that the improved convolutional neural network has a significant improvement in 
improving the recognition rate and has obvious advantages in action recognition. 


Key Words: action recognition; batch normalization; deep learning; convolutional neural network 


子 结合 KK- 均值 的 人 体 动作 识别 方法 。Shotton 等 人 中 利用 Harris 

检测 器 和 Gabor 检测 器 来 检测 时 空 兴趣 点 ， 构 建 3 维 梯度 直方 

人 体 动作 识别 作为 计算 机 视觉 领域 的 一 个 重要 研究 课题 ， 图 (HOG3D) 表 示 特 征 ， 提 出 了 彩色 时 空 兴趣 点 的 人 体 动作 识别 
在 视频 监控 、 视 频 内 容 检索 、 辅 助 医疗 、 虚 拟 现实 、 智 能 人 机 方法 ,Ofli 等 人 外 提出 了 最 大 信息 关节 序列 (SMIJ) 来 表示 特征 的 
交互 等 领域 中 有 着 广泛 的 应 用 价值 和 研究 意义 nV HN。 相 比 于 静 识别 方法 。Chen 等 人 四 利用 正面 、 侧 面 和 俯视 三 个 投影 视图 中 
像 ， 视 频 不 仅 具 有 外 观 信息 还 具有 运动 信息 ， 因 此 动作 识 得 到 的 深度 运动 图 (DMMs) 来 捕获 运动 信息 ， 再 用 LBP 局 部 二 

的 性 能 受到 更 多 因素 的 影响 , 如 运动 场景 的 不 同 光 照 、 视 角 、 元 模式 进行 特征 表示 。 赵 晓 健 等 人 09 提 出 结合 稠密 光 流 轨迹 和 
背景 以 及 动作 姿态 的 差异 等 。 当 前 国内 外 常用 的 动作 识别 方法 稀 玻 编码 框架 的 特征 提取 方法 DOF-SC) 进 行动 作 识别 。 李 亚 玮 
主要 可 以 分 为 两 大 类 : a) 传 统 的 动作 识别 方法 ; b) 基 于 卷 积 神经 等 人 [ 吊 提 出 基于 单 层 正则 化 的 光 流 约束 自 编码 器 的 特征 学 习 
网 络 的 动作 识别 方法 算法 来 进行 动作 识别 。 
传统 的 动作 识别 方法 主要 是 对 RGB 图 像 序列 进行 分 析 。 基于 卷 积 神经 网 络 的 动作 识别 方法 ， 主 要 在 于 构建 一 个 更 
申 晓 霞 等 人 J 提出 结合 深度 信息 和 RGB 图 像 来 识别 人 的 行为 有 效 的 网 络 识别 架构 .Simonyan 等 人 [3 提出 一 种 双流 网 络 结构 ， 
动作 。 张 杰 等 人 [9 提出 利用 时 空 梯 度 直方 图 和 光 流 直方 图 描述 证 明了 使 用 帧 间 光 流 特 征 训 练 的 卷 积 神经 网 络 在 数据 集 有 限 的 
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条 件 下 , 网 络 依旧 可 以 取得 很 好 的 性 能 。He 等 人 03 利 用 空间 金 ”入 < 和 整个 训练 样本 的 取 值 X 。 在 训练 集 X 中 ， 每 层 网 络 的 输 
字 塔 池 化 方法 ， 在 最 后 一 个 卷 积 层 中 加 入 一 个 池 化 层 来 对 输出 。” 入 x 是 由 上 一 层 网 络 的 输出 生成 ，x 受 模型 参数 的 影响 。 因 此 
的 特征 进行 池 化 ,实现 了 卷 积 神经 网 络 的 输入 大 小 非 固定 尺度 。 ”在 用 反 向 传播 算法 更 新 网 络 参数 的 过 程 中 ， 需 要 计算 与 批 归 
Wang 等 人 0 通过 构造 一 个 3 维 卷 积 核 最 大 池 化 的 网 络 ， 实 现 。 ”化 相应 的 x* 和 Xx 的 雅克 比 矩 阵 ， 如 式 (2) 所 示 。 


对 RGB-D 视频 的 自动 识别 。Wang 等 人 05 在 对 主流 的 一 些 网 络 Onorm(x, X) 

结构 进行 调整 ， 提 出 非常 深 的 双流 卷 积 神经 网 络 并 应 用 于 视频 O) 
的 动作 识别 中 。 王 忠 民 等 人 ng 利用 卷 积 神经 网 络 结合 SVM 支 ox 

持 向 量 机 对 智能 终端 采集 的 五 种 日 常人 体 动作 进行 识别 。 韩 敏 如 果 对 每 层 的 输入 都 加 入 批 归 一 化 处 理 , 会 非常 耗 时 (需要 
捷 09 提 出 2 模 态 动作 识别 方法 , 对 于 Kinect 传感器 捕获 的 静 计算 协 方差 矩阵 )。 对 此 Ioffe 等 人 R29 对 传统 的 批 归 一 化 算法 提 


态 
信息 使 用 卷 积 神经 网 络 处 理 ， 动 态 信息 则 用 递归 神经 网 络 ， 最 出 两 点 简化 改进 : 
后 融合 两 种 模型 提取 的 特征 进行 动作 识别 。 引 简 化 改进 ， 是 对 输入 的 各 维 进行 独立 的 批 归 一 化 处 理 而 
浅 层 学 习 网 络 ， 在 训练 样本 比较 有 限 的 条 件 下 ， 表 示 复 杂 不 是 联合 归 一 化 处 理 ,如 式 (3) 所 示 . 

函数 的 能 力 有 限 ， 且 模型 的 泛 化 能 力也 有 很 大 的 局 限 性 。 go X -EDBU] 
Simonyan 等 人 [9 在 大 规模 数据 集中 验证 了 当 卷 积 神经 网 络 的 vara] 
深度 增加 到 16 至 19 个 权重 层 时 ， 识 别 的 结果 有 很 大 程度 的 改 ”其 中 : x® 表示 输入 样本 的 第 HAE El valk] 分 别 表示 输入 
善 。GoogLeNet 网 络 09 是 在 传统 深度 卷 积 神经 网 络 P9 的 基础 上 的 期 望 和 方差 。Lécun 等 人 PC 证 明了 ， 即 使 训练 特征 是 不 相关 
加 入 多 个 inception 网 络 模型 的 结构 。 本 文 提出 批 归 一 化 变换 与 的 ， 式 (3) 批 归 一 化 算法 也 可 以 加 速 收敛 , 但 是 它 可 能 会 改变 各 
GoogLeNet 网 络 模型 相 结合 的 网 络 架 构 并 应 用 到 视频 人 体 动作 层 原 来 的 表示 ,使 得 输入 无 法 完整 表达 原 有 的 输出 特征 。 因 此， 
识别 领域 ， 相 对 于 传统 的 深度 卷 积 神经 网 络 在 训练 算法 及 网 络 。 为 了 保证 引入 的 批 归 一 化 变换 是 恒等式 ， 需 要 对 每 个 输入 xn 
结构 两 方面 进行 改进 。 空 间 流 网 络 通 过 视频 帧 的 RGB 图 像 来 加 入 一 对 参数 如 ,8 ， 如 式 (4) 所 示 . 
获取 运动 的 外 观 信息 ， 而 时 间 流 则 是 通过 连续 帧 间 的 光 流 场 来 y e prion a. ge (4) 
捕获 运动 信息 ， 最 后 将 时 空 网 络 融合 既 考 虑 外 观 信 息 又 关注 到 ”其 中 : 入 = var] 表示 输入 的 标准 差 , 相当 于 对 输入 x? 进行 尺 
运动 信息 ， 实 现 提 高 动作 识别 准确 率 的 目的 。 本 文 还 探究 了 ER; pO = EL 相当 于 对 a? 进行 平移 变换 。 这 两 个 参数 和 
Dropout 层 不 同 的 dropout 率 以 及 时 空 网 络 不 同 线性 加 权 融 合 比 经 网 络 模型 中 的 参数 一 样 通过 训练 学 习 获 得 ， 用 来 恢复 模型 
例 对 动作 识别 准确 率 的 影响 。 的 表达 能 力 。 

A b) 简 化 改进 ， 是 在 随机 梯度 训练 中 采用 微 批量 (mini-batch) 
1 。 网络 架 构 改进 样本 进行 训练 ， 在 每 个 微 批量 样本 上 对 每 层 进行 计算 ， 估 计 该 
深度 神经 网 络 在 训练 时 ， 各 层 网 络 的 输入 分 布 会 受到 上 一 层 的 均值 和 方差， 因此 在 批 归 一 化 处 理 中 计算 的 神经 网 络 统计 


G) 


E 


层 参 数 的 影响 ， 随 着 网 络 层 数 的 县 加 ， 网 络 层 的 微小 变动 所 产 。 量 (方差 和 均值 ) 可 以 用 于 梯度 反 向 传播 中 。 假 定 微 批 量 样本 8 
生 的 影响 就 会 不 断 被 放大 ， 这 就 有 可 能 会 产生 梯度 消失 或 者 梯 WADE m, 某 层 的 输入 某 维 是 x , 则 逐 维 归 一 化 如 式 (5) 所 示 。 
度 爆 炸 问 题 。 随 着 网 络 层 的 参数 被 不 断 更 新 ， 各 层 的 输入 范围 BN, p:a Yos (5) 
也 会 有 所 差异 和 变化 ， 这 会 导致 网 络 的 收敛 速度 减 慢 ， 整 个 网 下 面 在 算法 1 中 介绍 了 在 深度 卷 积 神经 网 络 的 某 一 层 中 播 
络 有 可 能 会 收敛 于 一 个 不 理想 的 局 部 最 优 值 。 以 上 问题 的 出 现 入 归 一 化 变换 算法 ， 相 对 于 未 加 入 批 归 一 化 处 理 的 网 络 输 入 是 


都 是 由 于 内 部 协 变量 迁移 (internal covariate shifb20 引 起 的 。 而 x, 加 入 之 后 的 输入 变 为 BN(x) 。 算 法 2 是 对 整个 深度 卷 积 神经 
要 消除 内 部 协 变量 迁移 所 带 来 的 副作用 ， 可 以 通过 修改 网 络 结 ”网 络 插入 批 归 一 化 变换 的 算法 流程 。 由 算法 1 可 以 看 出 ， 归 一 
构 ， 或 者 在 激活 层 中 加 入 和 白化 (whitening) 处 理 , 也 可 以 改变 参数 ”化 处 理 包括 对 输入 进行 归 一 化 以 及 对 于 归 一 化 后 的 数据 进行 尺 
调 优 算法 已 - 匀 。 为 解决 上 述 问 题 ， 本 文 借鉴 文献 [26] 在 ” 度 不 变 的 平移 变换 。 


ImageNet 图 像 分 类 领域 上 提出 的 批 归 一 化 (batch normalization) 算法 1 微 批量 归 一 化 变换 算法 
算法 处 理 一 些 网 络 层 输入 的 思想 应 用 到 动作 识别 领域 中 ， 对 视 输入 : Bde AES Bou. 
频 动作 训练 样本 的 网 络 输入 进行 微 批量 (mini-batch) 归 一 化 处 待 训练 学 习 的 参数 :4.6 。 
Eo 输出 y= BN). 
1.1. 批 归 一 化 处 理 算法 始 : 

传统 的 批 归 一 化 如 式 (1) 所 示 。 


is 
、 use ARERR B 的 均值 
X - norm(x, X) (1) m 


其 中 : x 表示 网 络 中 某 一 层 的 输入 矢量 ;X={%..w} 表示 整个 训 
练 集 的 输入 集合 。 从 式 (1) 可 以 看 出 ， 批 归 一 化 的 输出 取决 于 输 


ia f O 
op «-— 08 7 Y LATE B 的 方差 
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录用 稿 


X; — Hg 
2 
do; +e 


y, € AX, + B = BN, (x) 


X c // 归 一 化 处 理 ， 


£j; 


结束 
算法 2 神经 网 络 的 提 
输入 : 神经 网 络 N ， 

lj 层 网 络 输 入 
b 归 一 化 处 理 后 的 网 络 Ney 。 


t 归 一 化 变换 算法 
训练 参数 集合 0 ; 


EG (n. 


& 


Ns €N 
a) for 
b) 在 Naw 的 基础 上 进 
ngo Q”) 
c) 对 Ni 网 络 的 每 一 层 : 

仿 射 变换 的 输入 y 替代 原 输 入 xn 
for 


k-L..K do 


// 开 始 训练 
行 仿 射 变换 : 


y? -BN, 


d) end 


E. 7N Pm 


"n 里 


// 尺 度 不 变 平移 变换 


e) 训练 NW” ， 更 新 网 络 参数 : Oo G0, py 


f) 冻结 参数 ， 推 出 批 归 一 化 后 的 网 络 NS : 


g) for k-L..K ao 


// 令 x = x?.12 A9: gu =g” 


inf tr 
Ny, «- Nay 


BN 


个 微 批量 样本 B. (大 小 为 m ) ; 


h) 对 每 
方差 ; 


E[x] & Eplus]; var[x] € — Elo?] 
m-1 


行 训练 ， 然 后 计算 


B 的 均值 和 


需要 使 用 
需要 计算 批 归 


(6) 


i) (EN P, 公式 替代 原 有 的 BN 变换 y-BN, O): 
B À f AB[x] 
y fut NT EET 
j) end for 
结束 
加 入 归 一 化 处 理 后 的 深度 卷 积 神经 网 络 在 训练 中 
反 向 传播 算法 来 计算 损失 函数 1 的 梯度 ， 同 时 还 需 
一 化 变换 中 加 入 的 参数 。 式 (6) 给 出 了 用 反 向 传播 算法 求解 网 络 
参数 梯度 的 过 程 。 
cu 
OX, Oy, 
a i (x — ug): 2 E 
CE je a È X — s) 
Ous f o, md m 
Ol _ ob. 1 , &l 208 D ol 1 
Ox, aà, Tre 00; m Quy m 
A v 0 g 
a 1a 
Ovo 
08 Eo 


1.2” 批 归 一 化 与 GoogLeNet 相 结 合 


本 文 提出 批 归 
络 结构 ， 运 用 到 视频 人 体 动作 识别 


H 


的 网 络 构建 


化 变换 与 GoogLeNet 网 络 模型 相 结合 的 网 
体 的 处 理 过 


程 是 对 每 
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层 的 输入 特征 进行 批 归 一 化 处 理 ， 
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后 的 特征 输入 到 激活 函数 ReLU 层 中 。 


然后 将 批 归 一 化 处 理 
图 1 所 示 为 GoogLeNet 


中 的 一 个 inception 层 的 批 归 一 化 处 理 后 的 inception 网 络 结 松 
整个 改进 的 网 络 模型 除了 如 图 1 所 示 的 在 inception 网 络 模 
型 中 的 每 个 卷 积 层 后 面 都 加 入 批 归 一 化 处 理 层 之 外 ， 在 底层 网 
络 中 的 每 一 个 卷 积 层 的 后 面 都 跟随 有 一 个 批 归 一 化 处 理 层 ， 在 
批 归 一 化 处 理 后 同样 是 接 入 到 ReLU 激活 层 ， 再 接 入 后 续 的 网 
络 中 。 本 文 应 用 到 人 体 动 作 识 别 的 深度 卷 积 神经 网 络 的 结构 如 
表 1 所 示 。 
滤波 器 串联 e 
t WERETATS:] 
3x3 卷 积 滤波 
so Epub] (0H UD) gyros 
3x3 卷 积 滤波 
批 归 一 化 处 理 | [ 批 归 一 化 处 理 1x1 卷 积 滤波 
归 一 化 处 理 ^ 
1x1 卷 积 滤波 | | 1xl 卷 积 降 维 xl 卷 积 降 维 | | 3x3 最 大 池 化 
E 时 让 
底层 网 络 输出 
图 1 加 入 批 归 一 化 处 理 的 inception 网 络 结构 
2 ”时 空 双流 网 络 构 建 
2.1 双流 网 络 
视频 可 以 看 做 是 由 时 间 和 空间 两 部 分 组 成 。 在 空间 部 分 ， 


每 个 独立 的 帧 都 包含 有 场景 和 物体 的 外 观 信息 


; 在 时 间 部 分 ， 


则 包括 相机 和 物体 的 运动 信息 ,时 空 双流 网 络 模型 如 


图 像 ， 时 


空间 流 网 络 的 输入 是 RGB 


输入 视频 


图 2 所 示 。 
间 流 的 输入 是 光 流 场 。 


空间 流 网 络 


时 间 流 网 络 


图 2 深度 时 空 双流 网 络 模型 结构 
2.2 网络 训练 
公开 的 动作 识别 数据 集 相对 于 ImageNet25 数 据 集 而 言 , 数 


据 量 比较 小 。 当 卷 积 
络 陷入 过 拟 合 现象 。 


此 ， 


经 网 络 比 较 深 时 ， 训 练 集 较 
先进 行 一 些 预 处 理 ， 


小 容易 使 网 
数据 增强 


~ 


TI 


技术 来 扩充 训练 和 过 对 
重 的 初始 化 。 


pu 


居 增 强 是 对 训练 数据 集 进行 几何 变换 达到 增 力 


网 络 进行 预 训练 处 理 来 进行 网 络 权 


0 训练 集 的 


区 


XXe, A 


过 程 。 由 于 随机 裁剪 
造成 过 拟 合 ， 所 以 对 


技术 比较 倾向 了 
图 像 帧 的 边 角 和 中 心 区 块 进行 裁剪 ， 增 强 


像 的 中 心 


FF 选中 
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尺度 多 样 性 。 
然后 随机 从 人 


裁剪 ， 最 后 在 


体 的 做 没 


预 训练 ,将 


HB AREA 


进行 预 训练 处 理 


于 空间 网 络 


接 在 InageNet 上 进行 网 络 预 训 练 ， 


是 将 输入 的 数据 大 小 
RA {256,224,192} 中 选择 一 个 候选 的 裁剪 大 小 进行 
巴 裁剪 下 来 的 区 块 调 整 为 224x224 大 小 。 

网 络 在 ImageNet 数据 集 上 
MHR, 所 以 可 直 
而 时 间 网 络 的 输入 是 10 帧 


经 


的 输入 是 RGB 


1 


固定 为 256x340, 
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任 有 的 光 流 场 ， 需 要 进行 一 些 网 络 的 调整 。 本 文 使 用 的 是 TV- 
12632, RH opencv 提取 动作 视频 的 光 流 场 ， 然 后 通 
过 线性 变换 将 光 流 离散 到 [0,255] 区 间 , 保 证 与 RGB 同 区 间 ; 最 
后 将 在 ImageNet 预 训练 的 空间 网 络 模型 的 第 一 层 的 滤波 器 在 


m 


iN 


iz: 


通道 中 做 平均 ， 将 取 平 均 后 的 结果 进行 复制 20 次 (垂直 和 水 


方向 的 光 流 )， 作 为 时 间 网 络 的 初始 化 。 


动作 识别 网 络 结构 
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iH Inception 第 1 卷 积 支 路 Inception 第 2 卷 积 支 路 Inception 第 3 卷 积 支 路 滑 Inception 第 4 池 化 支 路 滑 窗 
类 型 输出 维度 | 
输 滑 窗 大 小 ( 卷 积 输 H 滑 窗 大 小 ( 卷 积 输出 ) 窗 大 小 ( 卷 积 输出 ) 大 小 〈 池 化 输出 | 卷 积 输 出 ) 
卷 积 112x112x64 
最 大 池 化 56x56x64 
卷 积 56x56x192 
最 大 池 化 28x28x192 
1x1 lxl 3x3 lxl 3x3 3x3 lxl 
Inception 1 28x28x256 3x3 
64 64 64 64 96 96 32 
1x1 lxl 3x3 1x1 3x3 3x3 3x3 1x1 
Inception 2 28x28x320 
64 64 96 64 96 96 64 
1x1 3x3 1x1 3x3 3x3 3x3 
Inception 3 14x14x576 
128 160 64 96 96 
1x1 lxl 3x3 lxl 3x3 3x3 lxl 
Inception 4 14x14x576 3x3 
224 64 96 96 128 128 128 
1x1 1x1 3x3 1x1 3x3 3x3 1x1 
Inception 5 14x14x576 3x3 
192 96 128 96 128 128 128 
1x1 lxl 3x3 lxl 3x3 3x3 lxl 
Inception 6 14x14x608 3x3 
160 128 160 128 160 160 128 
1x1 1x1 3x3 1x1 1x1 3x3 1x1 
Inception 7 14x14x608 3x3 
96 128 192 160 192 192 128 
1x1 3x3 1x1 3x3 3x3 
Inception 8 14x14x1056 3x3 
128 192 192 256 256 
1x1 lxl 3x3 1x1 3x3 3x3 1x1 
Inception 9 7x7x1024 3x3 
352 192 320 160 224 224 128 
lxl lxl 3x3 lxl 3x3 3x3 lxl 
Inception 10 7x7x1024 3x3 
352 192 320 192 224 224 128 
平均 池 化 1x1x1024 
dropout 1x1x1024 
全 连接 1x1x101 
Softmax lxlx101 
网 络 训练 。 因 为 在 ImageNet 上 做 了 预 训练 , 所 以 在 训练 时 UCF101 数据 集 包 含有 101 类 动作 , 共有 13 320 个 视频 段 。 


要 使 月 


日 更 小 的 学 习 率 。 动量 值 设 为 0.9。 对 于 空间 网 络 ， 基础 学 


习 率 为 0.001, BÆIR 1800 次 ， 则 降 为 原来 的 110， 最 大 迭代 


次 数 为 5 000。 时 间 网 络 的 学 习 率 为 0.003， 和 迭代 
学 习 率 降 为 原来 的 1/10, 
和 迭代 至 20 000 次 ， 


3 ”实验 


3.1 实验 数据 


本 文 的 实验 数 


15 000 次 ， 
迭代 至 18 000 次 ， 学 习 率 再 降 1/10, 
网 络 训练 结束 。 


是 采用 公开 的 视频 动作 识别 数据 集 


UCF101B80 和 HMDB51B0。 部 分 动作 的 示意 图 如 图 3 所 示 。 


UCF101 数据 集 是 由 在 无 约束 的 现实 环境 下 拍摄 的 网 络 视频 构 
成 ， 视 频 帧 像素 比较 低 ， 包 含有 不 同 的 光照 信息 ， 存 在 部 分 遮 
挡 和 相机 运动 的 情况 。 该 数据 集 将 动作 划分 为 五 种 类 型 ，a) 人 
与 人 交互 类 , 如 剪 头发、 头 部 按摩 等 5 个 类 别 ; b) 演 奏 乐 器 类 ， 
如 歇 笛子 、 拉 小 提琴 等 10 个 类 别 ; c) 仅 含 人 体 运 动 类 ， 如 吹 旦 
烛 、 打 太极 等 16 类 ; 由 人 与 物 交 互 类 ,如 吹 头发 、 切 菜 等 20 个 
类 别 ; 日 运动 类 ， 如 打 台 球 、 峙 泳 等 50 个 类 别 。 

HMDB51 数据 集 包 含有 51 类 动作 ， 共 有 6 849 个 视频 段 。 
HMDB51 数据 集 大 部 分 来 源 于 电影 片段 ， 小 部 分 来 自 YouTube 
等 视频 网 站 。 同 样 ，HMDB51 也 被 划分 为 五 种 类 型 : a) 与 物体 
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交互 的 面部 表情 类 ， 如 
动作 类 ， 如 微笑 、 说 话 动作 等 4 个 类 别 ; 
运动 类 ， 如 拥抱 、 


烟 、 喝 水 等 3 个 类 别 ;，b) 一 般 的 面部 


c) 人 与 人 交互 的 身体 


亲吻 等 7 个 类 别 ; 中 人 与 物 交 互 的 身体 运动 


K, 如 拔 剑 、 骑 马 等 18 个 类 别 ; 6) 一 般 的 身体 运动 类 , 如 鼓掌 、 


倒立 等 19 个 类 别 。 


阅兵 


前 头发 


打 太极 


吹 笛子 


KKR 切 菜 HER ”蛙泳 

UCF101 
jit 喝 水 WR ERME ” 亲吻 
HMDBSI 拳击 骑马 枪 倒立 起 立 


3.2 ”实验 结果 与 分 析 
在 Linux 系统 下 搭建 的 caffe 平台 单 


图 3 部 分 动作 示意 图 


GPU 上 进行 实验 。 按 


文献 [30.31] 规 定 的 数据 集 分 割 标 ; 


， 使 用 三 种 训练 /分 类 分 害 


i 


(train/test splib) 方 法 。 其 中 每 种 分 割 (splib 方 式 , 都 是 将 数据 集 大 


约 分 为 70% 训 练 集 和 30% 测 试 集 。 


一 般 情 况 下 ， 可 以 在 深度 卷 积 神经 网 络 中 加 入 Dropout 层 
来 避免 过 拟 合 时 。 本 文 探究 了 在 新 构建 的 时 空 动作 识别 网 络 中 
Dropout 层 的 dropout 率 (dropout_ratio) 参 数值 对 识别 准确 率 的 


影响 。| 


XX 1(split1) 下 进行 实验 分 析 ， 结 果 如 表 2 


不 同 的 dropout 率 参 数值 在 UCF101 数据 集 的 分 割 方 


所 示 。 


表 2 不 同 dropout 率 对 识别 准确 率 的 影响 
网 络 (dropout 率 ) 准 确 率 (dropout 率 ) 准 确 率 (dropout 率 ) 准 确 率 
时 间 网 络 (0.4)86.56% (0.6)86.48% (0.7)86.78% 
空间 网 络 (0.4)82.61% (0.6)83.16% (0.8)83.68% 


表 2 展示 了 dropout ratio 参数 的 不 同 数值 在 UCF101 的 
splitl 数据 集 上 的 动作 识别 准确 率 。 从 表 2 可 以 看 出 , 时 间 网 络 
的 dropout 率 为 0.7 时 , 比 0.4 和 0.6 的 识别 率 要 分 别 高 出 0.22% 


和 0.3%; 空间 网 络 的 dropout 率 为 0.8 时 


率 要 分 别 高 出 


， 比 0.4 和 0.6 的 识别 


1.07% 和 0.52%。 本 文 在 后 续 的 实验 中 分 别 将 时 


展示 了 UCF101 数据 集 在 分 割 方式 三 (split3) 下 的 时 空 


间 网 络 和 空间 网 络 的 dropout 率 设 置 为 0.7 和 0.8. 
图 4 
Wl £t i 


训练 迭代 次 数 达 到 1000 IF, accuracy f 
值 迅速 减 小 ,之 后 accuracy 
当 训 练 迭 代 到 2 000 次 以 后 ， 
保持 在 0.5 以 下 ， 


accuracy 保 


线 慢 慢 上 升 , loss 


随 着 迭代 的 进行 ， 收 敛 情 况 趋 于 稳定 。 从 图 


ZR TNCS. ALES 4(a) 中 可 以 看 出 ， 在 空间 流 上 ， 当 


接近 8096, train 的 loss 
线 慢 慢 下 降 ; 
寺 在 80% 以 上 ，loss {Ë 


4(b) 中 可 以 看 出 , 在 时 间 流 上 , 24 VIL ZO 


RUBBER S 1500 时 ， 


ChinaXiv 合 作 期 刊 


陈胜 娣 ， 等 : 基于 改进 的 深度 卷 积 神经 网 络 的 人 体 动作 识别 方法 


train 的 loss 值 迅 速 减 小 ， 之 后 accuracy 曲线 慢 慢 上 升 ，loss 曲 
线 慢 慢 下 降 ; DAI RORIS] 15 000 次 以 后 ,accuracy 保持 在 80% 
以 上 ，train 的 loss 值 保持 在 0.3 以 下 ， 随 着 迭代 的 进行 ， 收 敛 


情况 趋 于 稳定 。 


1000 


(9 空间 网 络 训练 迭代 收敛 


5000 


(b) 时 间 流 网 络 训 练 迭 代 收 敛 图 
4 ”时 空 网 络 的 训练 迭代 收敛 


15000 
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改进 的 时 空 网 络 架构 在 UCF101 和 HMDBSI 数据 集 上 的 
动作 识别 准确 率 记 录 在 表 3 中 。 将 时 空 网 


络 分 类 结果 用 线性 加 


权 的 方式 进行 融合 05。 本 文 还 探究 了 网 络 识别 置信 度 的 不 同比 


值 对 动作 识别 ; 


E 确 率 的 影响 ， 得 到 时 空 融 


合 网 络 的 识别 率 如 表 


4 所 示 。 最 后 将 本 文 方法 与 现 


的 一 些 


析 ， 比 较 的 结果 如 表 5 所 示 。 
表 3 改进 的 时 空 网 络 识别 准确 率 


验方 法 进行 比较 和 分 


网 络 制 方式 ”UCF101/% HMDB51/% 
splitl 83.68 53.99 
split2 81.76 48.69 
空间 网 络 
split3 83.75 49.67 
取 平 均 83.06 50.78 
splitl 86.78 62.81 
split2 89.91 61.90 
时 间 网 络 
split3 89.73 65.42 
取 平 均 88.81 63.38 


表 3 展示 了 空间 流 和 时 间 流 深度 卷 积 神经 网 络 在 UCF101 
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和 HMDB51 数据 集 上 对 于 三 种 不 同 分 割 方式 下 的 识别 准确 率 。 
从 表 中 可 以 看 出 ， 时 间 流 网 络 提取 的 运动 信息 比 空间 流 网 络 上 
提取 的 外 观 信 息 具 有 更 高 的 识别 率 ， 这 也 说 明了 对 于 动作 识别 
任务 ， 运 动 信息 比 外 观 信 息 更 为 
RA ”时空 融合 网 络 识别 准确 率 
HMDB51/% 


pup 


p: 
DK o 


分 割 方式 UCF101/% 


空间 : 时 间 1:1 1:1.2  LLS 1:1 1:1.2 1:1.5 


splitl 93.37 92.3] 92.12 069.48 69.22 69.08 
split2 93.95 93.97 93.82 067.32 67.35 67.06 
split3 93.17 93.17 93.29 68.17 6791 67.71 


取 平 均 93.50 93.15 93.08 68.32 68.16 67.95 


表 4 展示 了 融合 后 的 时 空 网 络 的 识别 准确 率 。 对 于 每 一 种 
分 割 方式 下 实验 得 到 的 时 间 网 络 上 的 识别 率 和 空间 网 络 上 的 识 
别 率 , 进行 线性 加 权 融 合 得 到 最 终 的 识别 率 。 由 表 4 可 以 看 出 ， 
空间 网 络 和 时 间 网 络 分 类 的 识别 置信 度 的 权 值 设置 为 1:1 时 ， 
融合 的 双流 卷 积 神经 网 络 的 识别 性 能 要 优 于 1:1.2 和 1:1.5 的 情 
况 。 对 比 表 3 可 以 看 出 ， 在 动作 识别 任务 中 ， 融 合 的 时 空 双流 


深度 卷 积 神经 网 络 能 有 效 改善 单独 的 网 络 在 识别 上 的 准确 率 。 
表 5 不 同 算法 识别 准确 率 的 比较 

方法 UCF101  HMDBSI 
Improved dense trajectories[4][33] 85.9% 57.2% 
IDT with higher-dimensional encoding[34] 87.9% 61.1% 
Two-stream[15] 88% 59.4% 

Very deep two-stream[18] 91.4% 

KVMF[35] 93.196 63.396 

本 文 方法 93.50% 68.3296 

de 5 给 出 了 本 文 方法 和 动作 识别 中 比较 典型 的 动作 识别 方 


法 在 UCF101 和 HMDB51 数据 集 上 的 识别 准确 率 的 对 比 。 
Improved dense trajectories“” 都 是 使 用 密集 轨迹 算法 ,IDT with 
higher-dimensional encoding "" 是 对 BOVW 视觉 词 袋 模型 进行 改 
进 融 合 多 维特 征 实现 更 高 维特 征 编码 ， 这 两 种 动作 识别 的 方法 
都 是 比较 传统 的 手工 设计 特征 的 方法 。Two-stream"" 是 通过 构 
建 一 个 双流 时 空 网 络 模型 来 对 动作 识别 ， 但 是 网 络 比 较 浅 层 

Very deep two-stream ^ 非常 深 的 网 络 架构 ， 在 深度 上 对 网 络 进 
行 改进 。KVMEF 算法 B5 通 过 对 视频 段 截取 多 个 3D volumes 来 
作为 网 络 的 输入 ， 用 每 个 volume 得 到 的 预测 向 量 来 表示 所 属 


o 


动作 的 类 别 概率 。 由 表 5 可 以 看 出 ， 本 文 提 出 的 改进 的 融合 时 
空 双流 深度 卷 积 神经 网 络 在 该 数据 集 上 具有 更 好 的 动作 识别 能 
力 。 


4 tmi 


本 文 在 人 体 动作 识别 任务 上 ， 提 出 改进 的 深度 卷 积 神经 网 
络 模型 结构 ， 并 利用 改进 后 的 网 络 模型 构建 时 空 双流 深度 卷 积 
神经 网 络 架 构 。 在 ImageNet 数据 集 上 进行 微调 , 融合 的 深度 卷 
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积 神经 网 络 在 UCF101 和 HMDBS1 数据 集 上 分 别 取得 了 93.5096 
和 68.32% 的 识别 率 。 目 前 深度 卷 积 神经 网 络 算法 已 经 成 功 应 用 
在 模式 识别 等 领域 的 实验 研究 中 ， 但 是 与 实时 响应 的 商业 化 应 
还 有 一 段 距离 ， 主 要 是 因为 训练 网 络 需 要 耗费 很 长 的 时 间 ， 
所 以 今后 可 以 在 并 行 计算 深度 卷 积 神经 网 络 算法 方面 做 深入 研 
究 。 
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